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ZUSAMMENFASSUNG 

Erzeugung eines Sprachmodells und eines akustischen Modells fur ein Spracherkennung*- 
system 

Die Erfindung betrifft ein Verfahren zur Erzeugung eines Sprachmodells und ein Verfah- 
5 ren zur Erzeugung eines akustischen Modells fur ein Spracberkennungssystem. Es wird 
vorgeschlagen, das jeweilige Trainingsmaterial sukzessive urn einzelne Trainingsmaterialan- 
teile in Abhangigkeit von anwendungsspezifischen Daten zu reduzieren oder zu erweitern, 
urn das jeweilige Trainingsmaterial zur Erzeugung des Sprachmodells und des akustischen 
Modells zu erhalten. 

10 
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BESCHREIBUNG 

Verfahren zum Erzeugen eines Sprachmodells und eines akusrischen Modells fur ein 
Spracherkennungssystem 

Die Erfindung betriflt ein Verfahren zur Erzeugung eines Sprachmodells fur ein Sprach- 
5 erkennungssystem. Die Erfindung betriffc auch ein Verfahren zur Erzeugung eines 
akusrischen Modells fiir ein Spracherkennungssystem. 

Fur die Erzeugung von Sprachmodellen und akustischen Modellen fur Spracherkennungs- 
systeme liegt umfangreiches Trainingsmaterial vor, das allerdings nicht anwendungsspe- 
10 zifisch isz. Das Trainingsmaterial fur die Sprachmodellerzeugung beinhaltet ublicherweise 
eine Sammlung einer Vielzahl von Text dokumenten, z. B. Zeiningsartikeln. Das Trai- 
ningsmaterial fiir die Erzeugung eines akusrischen Modells beinhaltet akustische Referen- 
zen fur Sprachsignalabschnitte. 

15 Aus der WO 99/18556 ist es bekannt, aus einer verfiigbaren Menge an Textdokumenten 
bestimmte Dokumente mit Hilfe eines Selektionskriterium zu selekrieren und den dureh 
die seiektierten Dokumenten gebildeten Textkorpus der Sprachmodeilbildung zugrunde zu 
legen. Es wird vorgeschlagen, die Dokumente im Internet zu suchen und die Selektion in 
Abhangigkeit von der Haufigkeit vorgegebener Schlusserworte in den Dokumenten durch- 

20 zufuhren* 

Der Erfindung liegt die Aufgabe zugrunde, die Sprachmodellerzeugung im Hinblick auf 
moglichsi gute Ausnutzung von vorhandenem Trainingsmaterial zu optixnieren. 

25 Die Aufgabe wird dadurch gelost, dass ein erster Textkorpus sukzessive urn ein oder 

mehrere Textkorpusteile in Abhangigkeit von Texcdaien eines anwendungsspezifischen 
zweiten Textkorpus reduzierc wird und dass unter Verwendung des reduzierren erst en 
Textkorpus die Werte des Sprachmodells erzeugt werden. 

30 
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Dieser Ansatz fuhrt zu einem anwendungsspezifischen Sprachmodell mit reduziert er Per^ 
plexitat und verringerter OOV-Rate, was schliefilich die Wortfehlerraie des Spracherken- 
nungssystems verbessert, wobei der Rechenaufwand moglichst klein gehalten wird. Aufier- 
dem kann man so ein Sprachmodell kleinerer Grofie erzeugen, bei dem gegenuber einem 
5 auf dem noch nicht reduzierten ersten Textkorpus basierenden Sprachmodell Sprachmo- 
dellbaumpfade eingespart werden konnen, so dass der Speicherplatzbedarf reduziert ist. 

Vorteilhaite Ausgestaltungen sind in den Unteranspriichen 2 bis 6 angegeben. 

10 Ein anderer Ansatz zur Sprachmodellerzeugung (Anspruch 7) beinh alter, dass ein Text- 
korpusteil eines gegebenen ersten Textkorpusses in Abbangigkeit von Textdaren eines 
* anwendungsspezifischen Textkorpusses sukzessive urn ein oder mehrere andere Text- 

korpusteile des ersten Textkorpusses zur Bildung eines zweiten Textkorpusses erweitert 
wird und dass die Werte des Sprachmodells unter Verwendung des zweiten Textkorpusses 

15 erzeugt werden. Im Gegensatz zum vorher besehriebenen Verfahren wird ein groSer 

(Hintergrund-) Textkorpus nicht reduziert, sondern es werden sukzessive Anteile dieses 
Textkorpusses aufakkumuliert. Dies fuhrt auf ein Sprachmodell mit ahnlich guten 
Eigenschaften wie ein nach dem vorher genannten Verfahren erzeugtes Sprachmodell. 

20 Der Erfindung iiegt auch die Aufgabe zugrunde, die Erzeugung des akustischen Model) s 
des Sprachexkennungssystems im Hinblick auf moglichst gute Ausnutxung von vorhan- 
denem akustischem Trainingsmaterial zu optimieren. 

Diese Aufgabe wird dadurch geiost, dass eine erste Anzahl von Sprach auCerungen reprasen- 
^ 25 tierendes akustisches Trainingsmaterial sukzessive um einzelne Sprachaufierungen repra- 

sentierende Trainingsmaterialanteile in Abhangigkeit von einer zweiten Anzahl anwen- 
dungsspezifischer Sprachaufierungen reduziert wird und dass mitt els des reduzierten 
akustischen Trainingsmaterials die akustischen Referenzen des akustischen Modells 
gebildet werdea. 



30 



Dieser Ansatz fuhrt auf ein kleineres akiisrisches Modell mit einer reduzierten Anzahl an 
akustischen Referenzen. Aufierdem enthalt das so erzeugte akustische Modell weniger im 
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Merkmalsraum veretxeute vereinzelte akustische Referenzen, die rich demgemass nur 
schwer Anhaufungen (Clustern) von akustische n Referenzen zuordnen lassen. Das erfin- 
dungsgemSfi erzeugce akustische Modell fiihrt schliefilich zu einer kleineren Wonfthlexrate 
des Spracherkennungssystems. 

5 

Entsprechende Vorteile gelten fiir den Ansatz, dass ein eine Sprachaufierung reprasen- 
tiertender Anteil eines gegebenen akustischen Trainingsrnatexials, das eine Vielzahl von 
Sprachaufierungen reprasentiert, sukzessive urn ein oder mehrere andere Anteile des gege- 
benen akustischen Trainingsmaterials erweitert wird und das mirtels der aufakkiimulierten 
10 Anteile des gegebenen akustischen Trainingsmaterials die akustischen Referenzen des 
akustischen Modells gebildet werden. 

Ausfuhrungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnungen naher 
beschrieben. Es zeigen: 

15 

Pig. 1 ein Blockschaltbild eines Spracherkennungssystems und 
Fig. 2 ein Blockschaltbild zur Erzeugung eines Sprachmodells fur das 
Spracherkennungssystem. 

20 Fig. 1 zeigt die Grundstruktur eines Sp rach erkennungssystems 1, insbesondere eines 

Diktiersystems (z. B- FreeSpeech von Philips). Ein eingegebenes Sprachsignal 2 wird einer 
Funktionseinbeit 3 zugefuhrt, die fur dieses Signal eine Merkmakexxraktion (FE, "feature 
extraction") durchfuhrt und dabei Merkmalsvektoren 4 erzeugt, die einer Verarbeirungs- 
einheit 5 (MS, "matching unit") zugefuhrt werden. In der Verarbeitungseinheit 5, die das 

25 Erkennungsergebnis ermittelt und ausgibt, wird in der bekannten Weise eine Pfadsuche 
durchgefuhxt, wobei ein akustisches Modell 6 (AM) und ein Sprachmodell 7 (LM) einge- 
setzt win! Das akustische Modell 6 umfesst einerseits Modelle fur Wortunterheiten wie 
beispielsweise Triphone, denen Folgen von akustischen Referenzen zugeordnet sind (Block 
8) und ein Lesrikon 9, das das verwendete Vokabular reprasentiert und mSgUche Folgen 

30 von Wortuntereinheiten vorgibt. Die akustischen Referenzen korrespondieren zu Zustan- 
den von Hidden Markov Modellen. Das Sprachmodell 7 gibt N-Grarnm-Wahrscheinlich- 
keiten an. Insbesondere wird ein Bigramm- oder ein Trigramm-Sprachmodeli verwendet. 
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Zur Erzeugung von Werten fur die akustischen Referenzen und fur die Erzeugung des 
Sprachmodelk sind Trainingsphasen vorgesehen. Nahere Er&uterungen zum Aufbau des 
Spracherkennungssystems 1 lassen sich beispielsweise dex WO 99/18556 entnehmen, 
deren Inhalt hiermit in diese Parentanmeldung einbezogen wird* 

Mitderweile existiert umfangreiches Trainingsmaterial sowohl fiir die Bildung eines 
Sprachmodells als auch fur die Bildung eines akustischen Modells. Die Erfindung bezieht 
sich darauf, aus dem vorhandenen Trainingsmaterial die Anteile zu selektieren, die in 
Bezug auf die Anwendung moglichst optimal sind. 



10 



Die Selekrion von SprachmodeU-Trainingsdaten aus vorhandenem Trainingsmaterial fur 
tr die Erzeugung eines Sprachmodells zeigt Fig. 2. Ein erster Textkorpus 10 (Hintergrund- 

korpus C^a) steUt das zur Verfugung stehende Trainingsmaterial dar. Er besteht ublicher- 
weise aus einer Vielzahl von Dokumenten, beispielsweise einer Vielzahl von Zeitungs- 

15 artikeln. Unter Verwendung eines anwendungsspezifischen zweiten Textkorpus 1 1 (C^), 
der Textbeispiele aus dem Anwendungsgebiet des Spracherkennungssysterns 1 enthalt, 
werden nun sukzessive Teile (Dokumente) aus dem exsten Textkorpus 10 enrfernt, urn 
einen reduzierten ersten Textkorpus 12 (C^ J zu generieren; auf der Basis des Textkorpus 
12 wird das Sprachmodell 7 (LM, "Language Model") des Spracherkennungssysterns 1 

20 erzeugt, das besser auf das Anwendungsgebiet, aus dem der zweite Textkorpus 1 1 stammt, 
angepasst 1st als ein Sprachmodell, dass auf der Basis des Hintergrundkorpus 10 erzeugt 
wurde. Obliche Prozeduren zur Erzeugung des Sprachmodells 7 aus dem reduzierten Text- 
korpus 1 1 sind durch den Block 14 zusammengefasst. Es werden AuftrittshaufigkeiTen der 
entsprechenden N- Gramme ausgewertet und in Wahrscheinlichkeitswerte umgesetzt. Dies 

25 Prozeduren sind bekannc und werden deshalb nicht mehr naher erlautert. Ein Testkorpus 
15 wird zur Bestirnmung des Endes der Iteration zur Redukrion des erstes Trainingskorpus 
10 verwendet. 



30 



Die Reduzierung des Textkorpus 10 wird auf folgende Art und Weise durchgefuhrt: 

Ausgehend davon, dass der Textkorpus 10 aus Textkorpusteile darstellenden Dokumenten 
Aj (i = 1, J) zusammengesetzt ist, wird im ersten Iterationsschritt das Dokument A g«- 
sucht, das das M-Gramm-Selekrioriskriterium 
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maximierr. N iJ><2 (x M ) ist die Haufigkeit des M-Gramms x M im anwendungsspezifischen 
Textkorpus 1 1, p(x v ) ist die aus der Haufigkeit des M-Gramms ^ im Textkorpus 10 
5 eimittelte M-Gramm-Wahrscheinlichkeit und p A{ {x M ) ist die aus der Haufigkeit des M- 

Gramms x M im um den Textkorpusteil Ai reduzierten Textkorpus 10 ermittelte M- 
Gramm-Wahrscheinlichkeit. 

Der Zusammenhang zwischen einer ermittelten M-Gramm-Haufigkeit N(xm) und einem 
10 zugehbrigen Wahrscheiiilichkeitnvert pCx^) ergibt sich beispielsweise fur sogenannte 
^^ 01. "backing-ofF-Sprachmodelle aus der Formel 

15 wobei ein M-Gramm x M sich aus einem Wort w und einer zugehorigen Vergangenheit h 
zusarnmensetzt. d ist eine Konstante, (3(wl h) ist ein vom jeweiligen M-Gramm abhangiger 
Korrekturwert. 

Nachdem ein Dokument A- auf diese Weise ermittelt wurde, wird der Textkorpus 10 um 
20 dieses Dokument reduziert. Ausgehend von dem so erzeugten reduzierten Textkorpus 10 
werden nun in nachfolgenden Iterationsschritten in entsprechender "Weise Dokumente A( 
mit Hilfe des genannten Selektionskriteriums AF tM aus dem bereits reduzierten Text- 
korpus 10 selekriert und der Textkorpus 10 sukzessive um weitere Dokumente A^ redu- 
ziert. Die Reduktion des Textkorpus 10 wird solange fortgesetzt, bis ein vorgebbares Krite- 
25 rium fiir den reduzierten Textkorpus 10 erfiillt ist. Ein solches Kriterium ist beispielsweise 
die Perplexitar oder die OOV-Rate ( n Out-Of- Vocabulary-Rate") des aus dem reduzierten 
Textkorpus 10 resultierenden Sprachmodells, die vorzugsweise mit Hilfe des kleinen 
Testkorpus 15 bestimmt werden. Die Perplexitar und auch die OOV-Rate erreichen bei 
der sukzessiven Reduktion des Textkorpusses 10 ein Minimum und nehmen beim wei- 
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teren Fortfiihren der Reduktion wieder zil Vorzugsweise wird die Reduktion dann been- 
det, wenn dieses Minimum erreicht ist. Der schlieSlich durch Reduktion des Textkor- 
pusses 10 am Ende der Iceration erhaltene Textkorpus 12 wird als Basis zur Erzeugung des 
Sprachmodells 7 verwendet. 

5 

Einem Sprachmodell entspricht iiblicherweise eine Baumstruktur, deren Baumkanten 
Worter und deren Baumknoten Worthaufigkeiten zugeordnet sind. Irn vorliegenden Fall 
wird eine solche Baumstrukrur fUr den noch nicht reduzierten Textkorpus 10 generierr. 
Wird nun der Textkorpus 10 urn bestimmte Anteile reduziert, werden beziiglich der be- 
10 troffenen M-Gramme angepasste Haufigkeitswerte bestimmt; eine Anpassung der eigent- 
lichen Baumstruktur, cLh. der Baumzweige und Baumverzweigungen, ist jedoch nicht 
erforderlich und erfolgt nicht. Nach jeder Auswertung des Selekrionskriteriums 
AF i M werden die zughorigen angepassten Haufigkeitswerte wieder geloscht, 



1 5 Alternativ zum sukzessiven Reduzieren einen gegebenen Hintergrundkorpusses kann ein 
zur Sprachmodellbildung verwendeter Textkorpus auch dadurch gebildet werden, dass 
ausgehend von einem einzelnen Anteil (= Texrdokument) des Hintergrundkorpusses 
sukzessive dieses Dokument urn jeweils ein anderes Dokument des Hintergrundkorpusses 
zu einem akkumuliexten Textkorpus in Abhangigkeit von einem anwendungsspezifischen 

20 Textkorpus erweitert wircL Die zur Textkorpuserweiterung dienenden Anteile des Hinter- 
grundkorpusses werden in den einzelnen Irerationsschrirten mit Hilfe des folgenden 
Selektionskriteriums errnittelt. 



25 



Pa^ ( x m ) isr der der Haufigkeit des M-Gramms x M in einem akkumuliexten Textkoipus 
Aji entsprechende Wahrschemlichkeit, wobei der akkumulierte Textkorpus A^ die 
^Combination von in vorausgehenden Iterationsschritten selektierten Dokumenten des 
Hintergrundkorpusses ist. Im aktuellen Irerarionsschritt wird dasjenige noch nicht im 
30 akkumierten Textkorpus enthaltene Dokument A- des Hintergrundkorpusses selekriert, fur 
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das AF. M maximal ist; dieses wild mit dem verwendeten akkumuUerten Textkorpus zu 
einem erweiterten Textkorpus kombiniert, der im nachsten Iterationsschritt als akkumu- 
lierxer Textkorpus zugmndegetegt wird. Der Index A^+A verweist auf die Kombination 
eines Dokuments A mit dem akkumulierten Textkorpus An* aktueLlen Iterations- 
5 schritts. Die Iteration wird abgebrochen, wenn ein vorgebbares Abbruchkriterium (siehe 
oben) erfullt wird, z. B. wenn die im aktuellen Iterationsschritt gebildete Kombination 
A^+A; zu einem Sprachmodell mit minimaler Perplexitat fuhrt. 

Bei der Erzeugung des akustischen Modells 6 werden entsprechende Ansatze verfblgt, Ah. 

10 ius einer gegebenen Menge an in Form von Merkmalsvektoren vorliegenden sprachlichen 
AuGerungen (akustisches Trainingsmaterial) werden in einer Ausflihrungsvariante die- 
jenigen sukzessive selekriert, die zu einem optimierten anwendungsspezifischen akustischen 
Modell rnit den zugehorigen entsprechenden akustischen Referenzen fuhren. Jedoch ist 
auch der umgekehrte Weg moglich, nSmlich dass Teile des gegebenen akustischen 

15 Trainingsmaterials sukzessive zur BUdung des schliefilich zur BUdung der fUr das Sprach- 
erkennungssystem verwendeten akustischen Referenzen aufakkumiert werden. 

Die Selekrion von akustischem Trainingsmaterial wird wie folgt vorgenommen: 

20 Xj bezeichne die Gesamtheit der im akustischen Trainingsmarerial enthaltenen Merk- 
malsvektoren, die durch Merkmalsextraktion entsprechend der von Block 3 aus Fig. 1 
durchgefuhrten Prozeduren gebildet werden und zu Klassen (entsprechen beispielsweise 
Phonemen oder Phonemsegmemen oder Triphonen oder Triphonsegmenten) zusam- 
mengefasst sind- C, sei ein Satz Beobachtungen einer Klasse j im Trainingsmaterial. C, 

25 korrespondiert insbesondere zu einem bestimmten Zustand eines Hidden Markov Modells 
oder dazu entsprechend zu einem Phonem oder Phonemsegment. W fc bezeichne den Satz 
aller Beobachtungen von Merkmalsvektoren in der jeweiligen Traiiungsspracbaufierung k, 
die aus einem einzelnen Wort oder einer Wonfblge bestehen kann, N£ bezeichne die 
Anzahl Beobachtungen der Klasse j in einer Trainingssprachaufieruiig k. Weiterhin be- 

30 zeichne y-, die Beobachtungen von Merkmalsvektoren eines Satzes vorgegebener anwen- 

dungsspezifischer Sprachaufierungen. Die folgenden Formeln setzen Gaufiverteilungen mit 
entsprechenden Mittelwercen und K^varianxwerten voraus. 
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Es wird fur eine Masse C } ein Mittehvertvekror 



1 ^ 



5 definiert. Das Entfernen der Spiuchaufierung k aus dem Trainingsmaterial bewirkt damit 
eine Mittelwendnderung bezuglich der Klasse C ; zu 



10 Damit ergibt sich durch die Reduktion des akustischen Trainingsmaieriak urn die 
Sprachaufierung k nunmehr ein Anderungywert von 



(v, iti |(v, i(v, -u,)] > 



15 wenn unveranderte Kovarianzwerte angenommen werden. Der Wert 2 wird wie folgt 
berechnet: 



20 mit N als Anzahl aller Merkmalsvektoren im nicht reduzierten akustischen Trainings- 
material und |J. als Mittehvert fur alle diese Merkmalsvektoren. 



Dieser Anderungswert korrxmr grundsatzlich schon als Kriterium fiir die Selektion von 
Sprachaufiemngen, urn die das akustische Trainingsmaterial redusaert wird, in Frage. Soil 
25 auch die Anderung von Kovarianzwerten mit in Betracht gezogen werden. Diese sind 
definiert durch 
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Nach Entfernen der SprachairSerung k aus dem Trainingsmateriai ergibt sich eine 
Kovarianz von 



2*=- 1 



' Nj-Nl 

so dass sich schliefilich ein Anderungswen (tagafuhmifcher Wahrscheinlichkeitswert) von 



m 

T 10 AF^Z 



J <QTf 



-Ijogdetfo)-^ - ntf -^K|lo 8 det(2> Ifo -n,) Jj-fo 



ergibt, der dann als Selektionskriterium verwendet wird. Sukzessive wird das akustische 
Trainingsmateriai urn jeweils einen der selekrierten Sprachaufierung k entspreehenden 
15 Anteil reduziert, was sich in einem entsprechend geanderten Mittelwert und einer ent- 
sprechend geanderten Kovarianz S* fur die jeweilige Klasse j gemafi den oben angefuhrten 

Formeln niederschlagt. Die beim Ende der Iteration erhaltenen Mitrelwerre und Kovari- 
aazen beziiglich der verschiedenen noch im Trainingsmateriai verbliebenen Sprach- 
au&erungen werden zur Bildung der akustischen Rcferenzen (Block S) des Spracherken- 

20 nungssystems 1 verwendet. Die Iteration wird abgebrochen, wenn ein vorgebbares Ab- 
bruchkriterium erfullt ist. Beispielsweise wird in jedem Iterationsschrirt fur das sich erge- 
bende akustische Model! und eine Test-Spracheingabe (Worrfolge) die sich ergebende 
Wortfehlerraie des Spracherkennungssysterns ermittelt. Ist die sich ergebende Wortfehler- 
rate ausreichend gering oder wird ein Minimum der Wortfehlerrate erreicht, wird die 

25 Iterarion abgebrochen. 

Ein anderer Ansatz zur Bildung des akustischen Modells eines Spracherkennungssysterns 
geht davon aus, dass ein eine SprachauSerung reprasentiertender Anteil eines gegebenen 
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akustischen Trainingsmaterials, das eine Vielzahl von Sprajchaufierungen reprasentiert, 
sukzessive urn ein oder mehrere andere Anteile des gegebenen akustischen Trainings- 
materials erweitert wird and das mitt els der aiifakkumulierten Anreile des gegebenen 
akustischen Trainingsmaterials die akusxischen Referenzen des akustischen Modells 
gebilder werden. Bei diesem Ansatz wird in jedem Iremionssehrirt eine Sprachaufierung k 
enrdttdt, die ein Selektionskriterium AF k oder AF k gemafi den oben angefuhrten Formeln 
maximiert. Anstatt gegebenes akustisches Trainingsmateriai sukzessive zu reduzieren, 
werden jeweils einer einzelnen Sprachaufierung entsprechende Teile des gegebenen 
akustischen Trainingsmaterials aufakkumuliert, und zwar in jedern Iterationsschritt jeweils 
am den einer einzelnen Sprachaufierung k entsprechenden Anteil des gegebenen akusti- 
schen TrainingsmateriaJs. Die Formeln fur |A* und £* rmissen dabei wie folgt modifiziert 
werden: 



15 



- r N t lX,+ V X t 



; N,+Ni 



Die ubrigen Formeln konnen unverandert versvendet werden. 



20 Die beschriebenen Ansatze zur Bildung des akustischen Modells eines Spracherkennungs- 
systems sind grunds&tzlich fur alle Verklebungsarten fur Mittelwexte und Kovarianzen und 
alle Art en der Modellierung von Kovarianzen (z. B. Skalar, Diagonalrnatrix, Vollmatrix) 
geeignet. Die Ansatze sind auch nicht auf Gaufiverteilungen beschrankt, sondern lassen 
sich auch beispieisweise auf L-aplaceverteilungen umschreiben. 

25 
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PATENTAN SPRDCHE 



1. Verfahren zur Erzeugixng eines Sprachmodells (7) fur ein Spracherkennungssystem (1), 
dadurch gekennzeichnet, 

dass ein erster Tesctkorpus (10) sukzessive urn ein oder mehrere Textkorpusteile in 
AbhSngigkeit von Textdaten eines anwendungsspezifischen zweiten Textkorpus (11) 
5 reduzierc wird und 

dass unter Verwendung des reduzierten ersten Textkorpus (12) die Werte des 
Sprachmodells (7) erzeugt werden. 

2. Verfahren nach Anspruch 1, 
10 dadurch gekennzeichnet. 

dass zur Bestimmung der Textkorpusteile, urn die der erste Textkorpus (10) reduzierc 
wird, Unigramrnhaufigkehen im ersten Textkorpus (10), im reduzierten ersten Textkorpus 
(12) und im zweiten Textkorpus (12) ausgewertet werden, 

15 3- Verfahren nach Anspruch 2, 
dadurch gekennzeichnet, 

dass zur Bestimmung der Textkorpusteile, um die der erste Textkorpus (10) in einem 
ersten Iterationsschritt und in entsprechender Weise in weiteren Iterationsschritten 
reduziert wird, das folgende Selektionskriterium verwendet wird; 



20 



mit als Haufigkeit des M-Gramms x M im zweiten Textkorpus, p(xu) als aus der 

Haufigkeit des M-Grarnms x M im ersten Trainingskorpus ermittelte M-Gramm-Wahr- 
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scheinlichkeit und p Ai (x M ) als aus der Haufigkeit des M-Gramms x^ im nm den 
Textkorpusteil Aj reduzierten ersren Trainingskorpus ermittelte M-Gxammwahrscheinlich- 
kfiit. 

5 4. Verfahren nach Anspruch 3> 
dadurch gekennzeichnet, 

dass Trigramme mit M = 3 oder Bigramme mir M = 2 oder Unigramme mit M = 1 
zugrunde gelegt werden. 

10 5- Verfahren nach einern der Anspruch e 1 bis 4, 
dadurch gekennzejchnet, 

dass zur Erminlung des Endes der Reduktion des ersten Train ingskorpusses (10) ein 
Testrext (15) ausgewertet wird. 

15 6. Verfahren nach Anspruch 5, 
dadurch gekennzeichnet a 

dass die Reduktion des ersten Trainingskorpusses (10) beim Erreichen eines bestimmten 
Perplexitatswertes oder einex bestimmten OOV-Rate des Tesrt extes, insbesondere beim 
Erreichen eines Minimums, beendet wird- 

20 

7. Verfahren zur Erzeugung eines Sprachmodells (7) fur ein Spracherkennungssystem (1), 
dadurch gekennzeichnet. 

dass ein Textkorpusteil eines gegebenen ersten Textkorpusses in Abhangigkeit von 
Textdaten eines anwendungsspezifisehen Textkorpusses sukzessive urn ein oder mehrere 
^^J^ 25 andere Textkorpusteile des ersten Texrkorpusses zur Bildung eines zweiten Textkorpusses 

erweitert -wird und dass die Werte des Sprachmodells (7) unter Verwendung des zweiten 
Textkorpusses erzeugt werden. 
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8. Verfahren zum Eizeugen eines akustischen Modells (6) flir ein Spraeherkennungssystem 
(1). 

dadurch flekennzeichnet. 

dass eine erste Anzahl von Sprachaufierungen reprasentierendes akustisches 
5 Trainingsmaterial sukzessive um einzelne Sprachau£erungen reprasentierende 

Trainingsmarerialanteile in Abhangigkeit von einer zweiten Anzahl anwendungsspezifischer 
Sp rachaul? exungen reduziert wird und 

dass mitt els des reduzierten akustischen Trainingsmaterials die akustischen Referenzen (8) 
des akustischen Modells (6) gebildet werden. 

10 

9. Veifahren zum Erzeugen eines akustischen Modells (6) fur ein Spracherkennungssystem 
dadurch gekennzeichnet. 

dass ein eine Sprach&uflerung reprasenriertender Anteil eines gegebenen akustischen 
15 Trainingsmaterials, das eine Vielzahl von Sprachaufierungen reprasentiert, sukzessive um 
ein oder mehrere andere Anreile des gegebenen akustischen Trainingsmaterials erweitert 
wird und das mittels der aufakkumuliercen Anteile des gegebenen akustischen 
Trainingsmaterials die akustischen Referenzen (8) des akustischen Modells (6) gebildet 
werden. 

20 

10. Spracherkennungssystem mit einem nach einem der AnsprUche 1 bis 7 erzeugten 
Sprachmodell und/oder einem nach Anspruch 8 oder 9 erzeugten akustischen Modell. 
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